查看原文
其他

专题丨基于同态加密和秘密分享的纵向联邦 LR 协议研究

符芳诚,刘舒 等 信息通信技术与政策 2022-12-10
※  信息社会政策探究的思想库  ※※  信息通信技术前沿的风向标  ※


作者简介




 符芳诚 

北京大学信息科学技术学院高可信软件技术重点实验室在读博士研究生,腾讯TEG数据平台部数据中心研究员,主要研究领域为机器学习、隐私计算、分布式计算等。



 刘舒

腾讯TEG数据平台部数据中心高级研究员,主要研究领域为机器学习、隐私计算、分布式计算等。



 程勇 

腾讯TEG数据平台部数据中心专家研究员,主要研究领域为隐私计算、联邦学习、安全多方计算、分布式计算等。



 陶阳宇 

通信作者。腾讯TEG机器学习平台部训练平台中心总监,主要研究领域为机器学习、隐私计算、大数据、分布式系统等。


论文引用格式:

符芳诚, 刘舒, 程勇, 等. 基于同态加密和秘密分享的纵向联邦 LR 协议研究[J]. 信息通信技术与政策, 2022,48(5):34-44.


基于同态加密和秘密分享的纵向联邦 LR 协议研究


符芳诚1,2  刘舒2  程勇2  陶阳宇3


(1. 北京大学信息科学技术学院高可信软件技术重点实验室,北京 100871;2. 腾讯TEG数据平台部,深圳 518054;3. 腾讯TEG机器学习平台部,北京 100083)


摘要:提出了一种新颖的两方纵向联邦逻辑回归协议,并在半诚实安全模型下证明了该协议的安全性,包括模型训练流程和模型推理流程的安全性,且无需对非线性函数使用多项式近似计算,从而保证了联邦逻辑回归协议模型无损。

关键词:纵向联邦学习;逻辑回归;同态加密;秘密分享

中图分类号:TP309.2       文献标志码:A

引用格式:符芳诚, 刘舒, 程勇, 等. 基于同态加密和秘密分享的纵向联邦 LR 协议研究[J]. 信息通信技术与政策, 2022,48(5):34-44.

DOI:10.12267/j.issn.2096-5931.2022.05.005


0  引言


机器学习和人工智能已经在多个领域取得了巨大的成功,如图像识别、自然语言处理、广告推荐等。在人工智能技术突飞猛进的同时,潜在的用户数据滥用和隐私泄露风险也逐渐成为业界广泛关注的焦点。出于数据安全和隐私保护的考虑,不同机构所拥有的数据无法被整合集中在一起用于机器学习建模,导致了数据孤岛问题的出现,进而阻碍了人工智能应用的发展。近年来,如何在保证每个机构的数据安全和用户隐私的前提下,协同多个机构的数据进行联合机器学习建模,从而提高模型的表达能力、更深入地释放数据价值,成为了学术界与工业界广泛研究的热点课题[1-2]


联邦学习(Federated Learning,FL)[3]是由谷歌于2016年提出的概念,旨在解决如何在数据不出本地的情况下,联合多个参与方(如智能手机等终端设备)中的数据进行模型训练。依据参与方不同的数据划分形式,联邦学习被进一步细分为横向联邦学习(Horizontal FL)、纵向联邦学习(Vertical FL)和联邦迁移学习三种范式[4]。本文关注的是纵向联邦学习场景。如图1所示,在纵向联邦学习中,不同的参与方拥有不同的特征空间,但在样本空间上存在交集;该交集部分可以被视作一个虚拟的纵向划分的数据集(即虚拟宽表),用于联合的数据建模与分析。此外,在纵向联邦学习中,只有一个参与方拥有标签信息(Label),称该参与方为参与方B,并称没有标签信息的参与方为参与方A。针对最常用的机器学习算法协议之一,本文围绕两方纵向联邦学习场景下的逻辑回归(Logistic Regression,LR)协议[5-7],着重分析如何设计一个安全的纵向联邦LR协议,并结合同态加密和秘密分享两种技术,提出了一种安全的联邦LR协议。在半诚实安全模型下,证明了所设计的纵向联邦LR协议的安全性。该纵向联邦LR协议已部署于通用隐私计算平台Angel PowerFL中,并获得了广泛的应用落地。

图1  纵向联邦学习场景的数据划分示意图

1  背景知识
图2  一种将同态密文转换为秘密分享变量的协议流程图
表1  同态密文转换为两个秘密分享变量的理想功能
2  联邦LR算法与分析
图3  参与方A通过XAWA对标签进行预测的示意图
表2  纵向联邦逻辑回归算法协议中,为了保证数据安全,各参与方不可获得的信息
图4  初始化流程图
图5  前向计算流程图
图6  反向计算流程图
表3  前向计算的理想功能
表4  反向计算的理想功能
3  结束语

本文对纵向联邦LR算法协议的安全性进行了全面的分析,并详细列出了保证特征数据和标签信息安全的具体要求。基于该分析,提出了一种新颖的两方纵向联邦LR协议,该协议通过结合同态加密和秘密分享技术来保证特征数据和标签信息的安全,且无需对非线性函数使用多项式近似计算,从而可以保证联邦LR模型无损。笔者在半诚实安全模型下证明了该协议的安全性,包括模型训练和模型推理流程的安全性。本文所提出的联邦LR协议的交互流程简单,易于工程实现,且计算和通信开销都较小,已经在通用隐私计算平台Angel PowerFL中获得了广泛的应用和经过了充分的检验。
参考文献
[1] 闫树, 袁博, 吕艾临. 隐私计算——推进数据“可用不可见” 的关键技术[M]. 北京:电子工业出版社出版, 2022.[2] 中国信息通信研究院云计算与大数据研究所. 隐私计算白皮书(2021 年)[R], 2021.[3] KONEN J, MCMAHAN B, RAMAGE D. Federated optimization: distributed optimization beyond the datacenter[J]. Mathematics, 2015.[4] YANG Q, LIU Y, CHEN T, et al. Federated machine learning: concept and applications[J]. ACM Transactions on Intelligent Systems and Technology, 2019,10(2):1-19.[5] HARDY S, HENECKA W, IVEYLAW H, et al. Private federated learning on vertically partitioned data via entity resolution and additively homomorphic encryption[J], 2017. DOI:10.48550/arXiv.1711.10677.[6] YANG S , REN B, ZHOU X, et al. Parallel Distributed Logistic Regression for Vertical Federated Learning without Third-Party Coordinator[J]. arXiv:1911.09824,2019.[7] CHEN C, ZHOU J, WANG L, et al. When homomorphic encryption marries secret sharing:secure Large-Scale sparse logistic regression and applications in risk control[J]. Proceedings of the 27th ACM SIGKDD Conference on Knowledge Discovery & Data Mining, 2021(8):2652-2662.[8] RIVEST R L, ADLEMAN L M, DERTOUZOS M L. On data banks and privacy homomorphisms[J]. Foundations of Secure Compuation, 1978:169-180.[9] EVANS D, KOLESNIKOV V, ROSULEK M. A pragmatic introduction to secure multi-party computation[J]. Foundations & Trends' in Privacy & Security,2018,2(2-3):70-246.[10] PAILLIER P. Public-key cryptosystems based on composite degree residuosity classes[J]. Proc. EUROCRYPT’ 99, Czech Republic, May, 1999(4):223-238.[11] CHENG K, FAN T, JIN Y, et al. SecureBoost: a lossless federated learning framework[J]. Intelligent Systems, IEEE, 2021,(99):1-1.[12] FU F, SHAO Y, YU L, et al. VF 2 boost: very fast vertical federated gradient boosting for cross-enterprise learning[J]. Proceedings of the 2021 International Conference on Management of DataJune, 2021:563-576.[13] WU Y, CAI S, XIAO X, et al. Privacy Preserving Vertical Federated Learning for Tree-based Models[J], 2020. DOI:10.14778/3407790.3407811.[14] ZHANG C, LI S, XUA J, et al. BatchCrypt: efficient homomorphic encryption for cross-silo federated learning[J]. In 2020 USENIX Annual Technical Conference, 2020(7):493-506[15] DEMMLER D, SCHNEIDER T, ZOHNER M. ABY-a framework for efficient mixed-protocol secure two-party computation[C]//Network & Distributed System Security Symposium, 2015.[16] MOHASSEL P, RINDAL, P. ABY 3: a mixed protocol framework for machine learning[J]. Proceedings of the 2018 ACM SIGSAC Conference on Computer and Communications SecurityOctober, 2018(10):35-52.[17] SHAMIR A. How to share a secret[J]. Communications of the ACM, 1979. DOI:10.1145/359168.359176.[18] BEAVER D. Efficient multiparty protocols using circuit randomization[C]//Advances in Cryptology-CRYPTO’ 91, 11th Annual International Cryptology Conference, Santa Barbara, California, USA, Proceedings. SpringerVerlag, 1991.[19] PULLONEN P. Actively secure two-party computation: efficient beaver triple generation[Z], 2013.[20] GOLDREICH O. The foundations of cryptography -volume 2, basic applications[M], 2004.[21] LINDELL Y. How to simulate it-a tutorial on the simulation proof technique[J]. Springer International Publishing, 2017:277-346.
Vertical federated logistic regression via homomorphic encryption and secret sharing
FU Fangcheng1,2, LIU Shu2, CHENG Yong2, TAO Yangyu3
(1. Department of Computer Science & Key Lab of High Confidence Software Technologies (MOE), Peking University, Beijing 100871, China; 2. Data Platform, TEG, Tencent Inc., Shenzhen 518054, China; 3. Machine Learning Platform, TEG, Tencent Inc., Beijing 100083, China)
Abstract: This paper presents a novel vertical federated logistic regression algorithm with provable security guarantees of both model training and inference under the semi-honest security model. The proposed algorithm is privacypreserving, lossless, and efficient. Firstly, by combining the homomorphic encryption and secret sharing mechanisms, data protection is provably ensured, including the protection of both features and labels. Secondly, the algorithm is lossless since it does not require any approximations for the non-linear functions.Keywords: vertical federated learning; logistic regression; homomorphic encryption; secret sharing


本文刊于《信息通信技术与政策》2022年 第5期



主办:中国信息通信研究院


《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、 国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。



《信息通信技术与政策》官网开通啦!


为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊于2020年11月18日起正式推出官方网站,现已进入网站试运行阶段。我们将以更专业的态度、更丰富的内容、更权威的报道,继续提供有前瞻性、指导性、实用性的优秀文稿,为建设网络强国和制造强国作出更大贡献!



《信息通信技术与政策》投稿指南




   推荐阅读  



专题丨浅析隐私保护计算技术对数据交易流通模式的影响

专题丨可信隐私计算:破解数据密态时代“技术困局”

专题丨隐私计算产品性能测评标准化研究

专题丨隐私计算跨平台互联互通的若干思考

专题导读:隐私计算

《信息通信技术与政策》2022年 第5期目次


♫. ♪ ~ ♬..♩~ ♫. ♪..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩♫. ♪ ~ ♬..♩~ ♫. ♪..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩♫. ♪ ~ ♬..♩~ ♫. ♪..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩♫. ♪ ~ ♬..♩~ ♫. ♪..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩..♩~ ♫. ♪ ~ ♬..♩


“在看”我吗?


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存